moe架构

MoE架构救DLM？LLaDA-MoE与RND1，如何让语言模型更高效？

话说最近AI圈又有大新闻了！俩扩散语言模型（DLM）突然火了，一个是中国人民大学和蚂蚁集团鼓捣出的LLaDA-MoE，另一个是RadicalNumerics家的RND1。

为展示未来趋势，阿里巴巴发布了[1] 两款新开源模型 —— Qwen3-Next 80B-A3B-Thinking 与 Qwen3-Next 80B-A3B-Instruct，为研究者和开发者社区提供对新型混合专家模型 (MoE) 架构的预览。